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Die Mgendan Angaben sind dan vom Anmeldar eingerelchtan Untarlagen 

Prufungsantrag gem. § 44 PatG ist gesteitt 

@ Umwandlung unstrukturierter Daten in strukturierte Daten 

@ Ea wird ein VBrfahren zur Umwandlung unstrukturier- | 
ter Eingabedaten in strukturierte Ausgabedaten beschrie- 
ben. Das Verfahren enthalt emen Datenauswahlschrrtt in 
dem mindestens ein Datensegm8ntausgewahltwird,wo- 
bei das genannte Datensegment einen Toil der genannten 
Eingabedaten umfai^t und das genannte Datensegment 
in ein Datenstrukturelement umgewandelt werden kann. 
Weiterhin umfafit das Verfahren der vorliegenden Erfin- 
dung einen Vor&chlagsschritt, bei dem mindestens ein 
Datenstrukturelement vorgeschlagen wird. Schlie&iich 
umfa&t das Verfahren einen Zuweisungsschritt, bei dem 
ein Datenstrukturelement als Zieldaten-Strukturelement 
zur Speicherung des genannten ausgewahlten Datenseg- 
ments zugewiesen wird und bei dem das genannte aus- 
gewahlte Datensegment aus den Eingabedaten extrahiert 
und im genannten Zieldaten-Strukturelement gespeichert 
wfrd. 
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BescfareibuDg 

1. Hintefgnmd der Erfindung 

1 . 1 An wendungsbereidi der vorliegenden Erfindung S 

Die vorliegende Erfindung bemeht sich auf ein Ver&hien 
auf dem Gebiet der Xafonnations-Kfining. Genauer g^sagt 
bezieht sich die vodiegende Erfindung auf ein Veifahrra zur 
Behandlung unstrukturierter Suigabedaten. 10 

1.2 Beschreibung und Nachteile der bisherigen Situation 

Oiganisationen erzeugen und erfassen gioBe Datenmen- 
gen, die sie in ibien taglicben Ablaufen verwenden. Den- 15 
noch sind zahlrdcbe Untemehmen nicbt in der Lage, das 
voUe Potential dieser Daten auszuscbdpfen, da der Mbnna- 
donsgebalt dieser Daten nicht einfadi zu ^tennen ist Die 
in Verwendung befindlichen Systeme zdchnen 'Kansakdo- 
nen genauso auf, wie sie eingehen, also Tkg und Nacht, und 20 
spdcfaeni die IVansaktionsdateo in Dateien und Datenban- 
ken ab. Dokumente weiden erstellt und in gemeinsamen Da- 
teien Oder in von Dokumentverwaltungen berdtgestellten 
Ablagesystemen abgelegt Die zunehmende \feibieitung des 
Internet und seine wadisende weltweite Akzeptanz als 2S 
Haupticanal sowohl fUr die Kommunikation zwischen ein- 
zeinen Personen als audi fDr die Abwiddung von Ge- 
scbaftsablaufen (beispielsweise durch email) baben die In- 
fonnationsquellen und somit die Chancen zur Edangung 
von Wettbeweibsvorteilen vervielfacht Business InteUi- 30 
gence Solutions ist ein Begriff, der die VroBsssc beschreibt, 
die insgesamt verwendet weiden, um dne besseie Entscbei- 
dungsfindung zu eneichen. Die Ihfonnations-Mining be- 
zeicbnet den I¥ozeB des Daten-Mining und/bder des l^t- 
Mining. Dabei wird eine modeme Ibcbnologie verwradet, 35 
ndt der wertvoUe Einblicke in diese QueUen erreicht wer- 
den, die es dem gescbMftlichen Benutzer ermdglichen, die 
ricbtigen Entscheidungai zu tieffen und somit einen Wett- 
beweibsvorteil zu eriangen, der ndtig ist, um in der moder- 
nen Wettbewerbsumgebung erfolgreicb zu seia Das Lifor- 40 
mations-Mining erzeugt aus jeder Quelle im allgemeinen 
zuvor unbekannte, gut verstandliche und belangbare Daten 
wie beispielsweise Transaktionen, Dokumente, email, Web- 
Seiten usw. Diese Dalen kdnnen die Grundlage flir wichtige 
Gescbaftsoitscheidungeo darsteUen. 45 

Daten bilden dabei den Si^tofiT. Es kann sich bieibei um 
eine Gruppe diskieter Fakten fiber Eieignisse handeln, und 
in diesem Fall spiicht man nutzlicherweise von stnikturier- 
ten Aufzeichnungen von TVansaktionen, die nonnalerweise 
in alphanumeriscber Form voiliegen. Docb Dokumente und 50 
Wd)-Seiten sind auch eine Quelle unstrukturierter Daten, 
die als Bitstiom bereitgestellt und zu Ibxtwortem und -sat- 
zen ein^ bestimmten Landessprache dekodiert weiden. 

Industrieanalysen gefaen davon aus, daB unstnikturierte 
Daten 80% aller Daten in dnem Untemehmen ausmacben 55 
und nur 20% strukturiert sind; diese Daten haben unter- 
scbiedliche QueUen, bdspielswdse Tbxt, Bild, Video und 
Audio. Der uberwiegende Anteil der stnikturioten Daten 
liegt alleidings in Textfoim vot 

Das Daten-Mining nutzt die Infrastruktur gespeicherter 60 
Daten (also die Metainformationoi der zu verarbeitenden 
Daten, beispielsweise das Layout der Daten, bestimmte 
Kennzeichnungen, Beziehungen usw.), um wdtere ntitzli- 
che Informationen zu eriangen. Duich Datra-NGning einer 
Kundendatenbank konnte man beispielsweise die Erkeimt- 65 
nis gewinnen, daB jeder; der das Rodukt A kauft, audi die 
Produkte B und C kauft, ledigUch sechs Monate spatec 

Nur wenn die von einer Anwendung zu veraibdtenden 



Eingabedaten eine votdefinierte Struktur einhalten, die in 
der Anwendung bekannt ist, kann diese Anwendung die 
Eingabedaten be> und verarbdten. 

Da die VerfQgbarlceit stnikturierter Daten Voraussetzung 
fur jede wdtere Verarbeitung der mogUcben Komponenten, 
die die Bestandteile der unstnikturierten Daten ausmacben, 
sind, wurde beispielsweise das Tbxt-Mining entwickdt 
Tbxt-Miniiig ist die Anwendung des Rinzips des Daten-Mi- 
ning auf unstrukturi^te od^ geiingfQgig strukturierte Ibxt- 
datdm. Das Tbxt-Mining muS im Gegensatz zum DateD- 
Mining in einer wenigcr stnikturierten Umgebung erfolgen. 
Die Dokumente hab«i nur seiten eine starke interne In&a- 
struktur (und weim das der Fall ist, dann bezieht sich diese 
Infrastruktur meistens auf das Dokumentformat und weni- 
ga auf den Inhalt). Bd dem Ibxt-Mining werdoi Metadaten 
fiber Dokumente aus den Dokumenten extrahiert Die Meta- 
daten stelloi eine M6gtichkdt dai; den Inhalt eines Doku- 
meats anzmeicheiii, und zwar so, dafi die Mining-Software 
dieses Dokument anschHeBend manipulieien kann. Die 
Tbxt-Nfining Ttehnik ist dne Methode zur Auswdtung des 
Daten-NGning auf die immensea und immer wdter wacb- 
senden Mengen ge^)dcherter Ibxte in einem automatischen 
RozeB, in dem strukturierte Daten erstellt werden, die Do- 
kumente bescbidben. Innerfaalb des Tbxt-Mining gibt es 
viele verschiedene Ibchnologien zur Erzeugung von Meta- 
daten ffir ein Dokument, mit dem Ziel, die Art eines Doku- 
moits zu bestimmen, seine Struktur abzuldten, usw. Ifier d- 
nige Beispiele: 

Merkmalsextzaktion (fiBatuie extraction): dient zum Su- 
chen und Extzahiemi von Infonnationen oder ^^ssen aus 
Ibxtdokumenten. 

Quster-Tbcfanologie (dusteiing technology): dient zum 
Sortieiea von Dokumenten nach lliemen, ran5glicht die 
Suche nach Schwerpunktthemen in dner Dokumenten- 
sammlung usw. 

SSmtUche dieser Ibchnologien sind bis zu einem gewis- 
sen Grad efiektiv und ennOgUcben eine Orientioimg unter 
dieser riesigen Anzahl unstrukturierter Informationsquellen. 
Letztendlich kdnnen sie jedoch nicht auf zuverlassige Wsise 
und automatisch den stnikturierten Informationsgehalt aus 
einem unstnikturierten Eingabedokument b^ausextrahie- 
ren. Sie kdnnen nur bestimmte Angaboi zur Art der Hngar 
bedaten liefem und bieten keine Instrumente zur Umwand- 
hing dsi unstrukturiertm Eingabedaten in strukturierte Ein- 
gabedaten an. 

1.3 Ziel der voriiegenden &findung 

Das Prinzip der vorliegenden Erfindung berubt auf dem 
Ziel, ein Verfahren zum Herausfihem strukturierter Daten 
aus einer unstrukturierten Eingabe bereitzustellen und auf 
diese Wdse eine Anwendung zu unterstiitzen, die fiir ihre 
Verarbdtung strukturierten Eingabedaten bendtigt 

2. Zusammenfassung und Vsiteile der vorUegenden Erfin- 
dung 

Die Zide der voriiegraden Erfindung weiden gemaB der 
AusfUhrung von Anspruch 1 eiidcht 

Das Prinzip der vorfiegenden Erfindung bezieht sich auf 
ein von einem (^omputersystem ausgefiihrten \%rfahren zur 
Umwandlung unstrukturierter Eingabedatra in strukturierte 
Ausgabedatoi. Das Verfahren der vorfiegenden Erfindung 
umfaBt einen Schritt der Dalenauswahl, bd dem mindestens 
ein Datensegment ausgewahit wird, wobd das genannte Da- 
tensegment einen Tdi der genannten Eingabedaten umfaBt 
und das genannte Datensegment in ein Datenstruktiirele- 
ment umgewandelt werden kann. Das Vbifahren der vorii&- 
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genden Erfindung umfafit weiterhin einen Schritt, bei dem 
mindestens ein Datenstnikturelement vozgeschlagen wild. 
Schliefilich umfafit das Verfahien der vorliegeDden Erfin- 
dung einen Schritt der Zuweisung, bei dem ein Datenstnik- 
turelement als Zieldatenstnikturelem^it zur Speicheiung S 
des genannten ausgewahltoi Datensegments zugewiesen 
wird und bei dsm das genannte ausgewShlte Datensegment 
aus den genannten Eingabedaten extraUert und im genann- 
ten Ziddatenstniktuielement gespeichect wild. 

Das Rinzip der vorliegenden Erfindung enn5glicht es, 10 
die riesigen immer weiter wachsenden Mengen unstniktu- 
rierter elektionischer Daten zu bewaltigen. Aus Sicht des 
Benutzers besteht der V)rteil der voriiegenden Erfindung 
darin, die Aufgabe der Extraktion von Daten aus unstruktu- 
rierten Eingabedaten ftir Anwendungen zu vereinfachCT, die 15 
stiukturieite Daten erwarten. Die fUr die Datenextraldion 
bendtigte Zeit wird deutlich reduzieit, und das fehleranfSl- 
lige Abdppen wird nicht langer bendtigt Der Benutzer kaim 
ein Datensegment fUr die Extrakdon beliebig ausw9hlen und 
ist dabei nicht durcfa das System dngeschrSnkt. Per Benut- 20 
m muB nicht l&iger im voraus die potentiellen Datenstruk- 
turen kennen. Statldessen bietet das ^zfahren der vodie- 
genden Erfindung im \bcschlagssdiritt die mdglichen Da- 
tenstrukturen zur Auswahl an. 

Entsprechend einem wdteren Ausfuhrungsbeispiel der 25 
vorliegenden Erfindung enthSlt das Verfahren auch einen 
Schritt zur Spdcfaenmg, in dem das genannte Zieldaten- 
strukturelement daueriiafl gespeichert wild. 

Die dauerhafle Speichenmg der erfafiten Hngabedaten 
ermdglicht es, daS jede beliebige Anweodung zu einem spS- 30 
tmn Zdtpunkt darauf zugieifen kann. 

Entsprechend einem wdteien AusfOhrungsbeispid der 
vorliegenden Erfindung wezden im A^irschlagsschritt Daten- 
struktairelemente undfoder Datenstrukturen voigeschlagen, 
wobei die genannten Datenstrukturen ein od^ mehrere Da- 3S 
tenstrukturelemente und/oder ein oder mehrere weiteie Da- 
tenstrukturen enthalten. 

Dieses weitere Ausfuhrungsbeispiel der vc^egenden Er- 
findung vermeidet Beschrankungod hinsichtlich dem Lay- 
outs der betdligten Datenstruktuien. Jede Datenstruktur 40 
kann sich aus atomiscben Datenelementen und/oder zusatz- 
lichen Datenstrukturen (mit derselben Substruktur) zusam- 
mensetzen. Das Prinzip der vorliegenden &findung edegt 
hinsichtlich des rekursiven Layouts keine BeschrSnkungen 
auf. 45 

Entsprecfami einem wdteren AusfOhrungsbeu^d der 
vorliegenden &findung geht dem Sdiritt der Datenauswahl 
ein Schritt zur Bestimmung des Anwendungskontextes vor- 
aus, bei dem mindestens eine Zielanwendung festgelegt 
wird, um gegebenenfalls die strukturiertCT Ausgabedaten zu SO 
verarbeiten. Im Schritt zur Bestimmung des Anwendungs- 
kontextes konnen die genannten Eingabedaten automatisch 
vom genannten Computersystem klassifiziert und minde- 
stens einer Zielanwendung zugewiesen werden. Ersatzweise 
Oder zusatzlich kann im genannten Schritt zur Bestimmung ss 
des Anwendungskontextes dn Benutzer aus dner Gruppe 
von Anwendungen mindestens eine Zielanwendung aus- 
wahlen. SdilieBlich wecden im genannten X^nschlagsscfaritt 
nur solche Datenstrukturelemrate voigeschlagen, die sich 
auf die genannte Zielanwendung beziehen. 60 

Die Mdglichkeit, einen Anwendungskontext auszuwah- 
len, gestattet eine deutliche Reduzierung potentieller Zielda- 
tenstrukturoi im \brschlagsschritt. Die Klassifizierung der 
Eingabedaten auf automadsche Wdse fuhrt zu wdteren Wor- 
teilen. Die Klassifizierung kann in einem automatisch zuge- 65 
wiesenen oder einem zuvor ausgewShlten Anwendungskon- 
text lesultieren. Im letzteren Fdl lafit sich der zuvor ausge- 
wahlte Anwendungskontext vom Benutzer wdter verfei- 
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nem. 

Entsprechend einem weitercn Ausfuhrungsbeispiel der 
vorliegenden Erfindung analysieit im genannten Datenaus- 
wahlschritt ein Parser die genannten Eingabedaten, klassifi- 
aert potendelle Datensegmente und wahlt im voraus Daten- 
segmente aus, die fOr eine Selanwendung mdglicherweise 
relevant sind. 

Auf der Basis dieser X^eheasweise vereinfacht das 
'Pnmsp der vodiegenden Erfindung auch den Auswahlpro- 
zeB. Das Verfahren schlSgt im voraus ausgewShlte Daten- 
segmente voi; die ein Benutzer Gbemehmen oder aufgnmd 
seines zusatzlichen '^^sens eiganzen kann. 

Entsprechend einem wdteren Ausfuhrungsbeispiel der 
vorliegenden Erfindung wird voigesdilagen, das Verfahr»i 
in ciner Zielanwendung und/oder in einem Mailing-System 
und/oder in einem Ibxtveraibdtungsprogramm zu integrie- 
len. 

Der Mnrteil besteht darin, dafi das Verfahrrai an denjeni- 
gen Stelien in einem System verfQgbar granacht wird, wo 
unstniktuiiette Daten im System eingefaen. Deshalb findet 
die Umwandlung in stnikturierte Daten so frOh wie m5glich 
statt, was es alien Anwendungen, die zu einem spateren 
Zeitpunkt ausgefilhrt werden, mnSglicht, von den stniktu- 
rierten Daten zu piofitima. 

Kurze Beschidbung der Zdcfanungen 

Fig. 1 zdgt ein Beispiel ein^ manuellen Datenerfassung 
unter Verwoidung von Formularen gemafi dem Stand der 
Ibchnik. 

Fig. 2 ist eine Abbildung der Erfassung stzukturierter 
Ausgabedaten aus unstrukturierten Eingabedaten in t)ber- 
dnstimmung mit der vorliegenden Erfindung. 

Fig, 3 veranschaulicht das weitexe Ausftlhrungsbeispiel 
ernes Anwendungskontextes zur Begrenzung der Gruppe 
potentieller 2Sddatenstrukturen. 

Fig. 4 ist eine Zusammen£Eissung des Verfahrens der vor- 
liegenden Erfindung. 

4. Beschreibung des bev(»zugten AusfUhrungsbdspiels 

Weim in d^ Besdurdbimg der voriiegenden Erfindung 
von elektroiuschen Daten oder einem elektronischen Doku- 
ment usw. die Rede ist, dann sind damit alle Datenarten ge- 
mdnt 

4.1 ^nfOhnmg 

Die im Einsatz befindlichen Systeme (Systeme also, die 
die tSglichen AblSufie dues Untemehmens steuem) arbdten 
mit strukturierten Daten. Die Zusammensetzung solcber Da- 
tea aus einfachen atomiscben Datentypen (in einfachen Fal- 
len aus Ganzzahlen, Strings usw.) ist voidefiniert und in den 
Systemen, die diese Daten verarbeiten, bekannt Ohne sol- 
che Metadaten funktioniert kdne der klassischen Anwen- 
dungen Oder gar Algorithmen: Daten, die nicht strukturiert 
wurden, konnen gnmdsatzlich nicht verariseitet werden (zu- 
mindest nicht hinsiditlich ihrer potentiellen Bestandteile). 

Wenn Menschen miteinander kommunizieien, woxien 
Daten hauptsSchlich in 'unstrukturieitei' Form verwoidet 

Beispiele fur solche Daten sind Ibxt, Bild und Sprache, 
die zwischen Menschen ausgetauscht werden, die in Brie- 
fen, Iblefax-Nachrichten, e-mails, Iblefongesprtchen usw. 
miteinander kommunizieren. Diese Daten besitzen kdne 
Struktur, die fiir die Anwendungen oder Algorithmen ver- 
fUgbar ist Folglich mufi der Mensch aus diesen unstruktu- 
rierten Eingaben die relevanten Daten herausfiltera und sie 
entsprechend den Anfoiderungen der Anwendung struktu- 
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rieren, wenn die unstnikturieite Eingabe sonst aiif die Ab- 
laufe in einem UntemehmeD negative Auswiikungen hatte. 

Fig. 1 zeigt, was heutzutage in soldien Situationen nor- 
malerweise gemacbt wird: Die unstiukturierte Eingabe 
(100) (in diesem Fail ein Ibxtverarbeitungsanbang an einem s 
e-mail) wiid von einem Menschen gelesen. Der Menscb ver- 
steht den Brief imd weifi, welche Art von Daten die Zielan- 
wendung beoddgL Der Mensch filteat also die erfoideili- 
chen Daten aus der unstnikturierten Eingabe heraus imd gibt 
sie (Feld fOr Feld) in ein Fbrmular (101) ein - Schritt 1 in 10 
Fig. 1 . Dieses Formular kOnnte beispielsweise bereits in der 
SchnittsteUe der 21ielanwendung da^estellt werden. Sobald 
das Formular voUstSndig ausgefuUt ist, teilt er dies der An- 
wendung ndt, die dann die inzwiscben stnikturierte Eingabe 
dazu verwrodet, beispielsweise eine Datenbank (oder eine 15 
Datei usw.) (102) zu manipulieren - Scbritt 2 in Fig. 1. 

Diese \^)rgehensweise ist nicfat nur mUhsam imd zeitauf- 
wendig, sondem bekanntermaBen auch fehleranfallig: Der 
Mensch muB sicb an die Daten aus der unstrukturierten Ein- 
gabe eiinnexn (beaspi^weise an den Namen eines Kunden 20 
und seine Schreibweise) und sie in das Formular der An- 
weoduiig eingeben. NatOrlicb kann er diese Datrai auch 
handscfariftlich auf ein Blatt Papier schieiben oder einfach 
nur die Datenquelle und das Zidformular in zwei verschi&- 
denen Fenstem gleichzeitig auf dem Bildschirm anzeigen 2S 
lassen, doch bleiben die FefaleranfSUigkdt und der Aufwaod 
boch. 

A2 Die Ldsung 

30 

Die L5sung in t}bereinstimmung mit der vorli^enden 
Qrfindung wird in Fig. 2 daigestellt 

Das Mnzip der vodiegenden Erfindung beruht auf der 
Verweodung von Mentis, die die Erfassung stnikturierter 
Daten anhand von unstrukturierten Eingaben unterstOtzen. as 
Solche Mends kdnnten bdspielsweise in Form von stufen- 
weisen KontextmenQs angeboten werden. Zu diesem Zweck 
konnte die Software, die zum Durchforsten der unstniktu- 
rioten Euigabe (201) verwendet wird (beispielsweise ein 
Textverarbeitungsprogramm), durch eine Implementierung 40 
des vorgeschlagenen Verfahiens in Obeieinstimmung mit 
d^ vorliegenden Erfindung erweitert weiden. 

Das beschrieboie Verfahroi gestattet in einem Auswahl* 
schritt die Auswahl (beispielsweise durch Mariderung) ei- 
nes der Eingabe (202), die von einem Mensdien als re- 45 
levant ftir eine Anwendung angegeben wurde, die eine 
stnikturierte ^gabe erfordert Als zusStzliche Eig3nzung 
konnte das Verfahren einzelne Qemente des Daten-Minings 
verwenden. Wenn man beispielsweise die "Merkmalsex- 
traktionstechnologie" und die "Klassifikationstecbnotogie" SO 
einsetzt, kann ein Parser potratielle Datensegmente, die fiir 
eine Zielanwendung relevant sind, automatisch ericennen 
und klassifizieren. Auf der Grundlage dieses Parser-Schritts 
kdnnten erkannte Datensegmente, die moglicherweise rele- 
vant sind, bereits durch das beschriebene Verfahren im vor- 5S 
aus ausgewahlt weiden. Ein Benutzer kdnnte Hgr nnfHin 
wahrend des Verfahiensablaufs diese im voraus ausgewShl- 
ten Datensegmente verwenden oder Erganzungen in die 
durdi dieses Verfahren beschriebene >^3!rauswahl einfQgen. 

Als n^chstes wird in einem ^^>rschlagssctlritt ein Kontext- 60 
menil geoffiiet, das alle mdglichen fiir die Datenarten rele- 
vanten Datenstrukturrai der Zielanwendung auflistet (Ge- 
samtmena (203) in Fig. 2, Schritt 1); die Offiiung des Kon- 
textmeniis kdnnte in der beute fur Ibxtvoaibeitungspro- 
gramme tiblichen Weise eifolgen, indem man beispielsweise 6S 
die rechte Maustaste ditickt, wahrend man mit dem Maus- 
pfeil auf den mariderten Menupunkt zeigt Es sei darauf hin- 
gewiesen, daB es hierzu v^schiedene Altemativeo gibt (die 
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sich auch kombinieien lassen): 

Das Gesamtmenu kdnnte alle Datenstrukturen aufRihren, 
die filr das Untemehmen relevant sind. 

Das GesamtmenQ kdnnte alle Datenstrukturen auffiihren, 
die fur eine bestimmte ^elanwendung oder eine bestimmte 
Gruppe von Zielanwendungen relevant sind. 

Wenn man das Klassifizioungseigebnis eines Parsers 
nutzt, der die Eingabedaten analysiert hat, kdnnte das Ge- 
samtmenii alk Datenstrukturen aufiuhren, die fUr dea Doku- 
menttyp relevant sind, zu dem die Eingabedaten gehdren. 

An dieser Stelle wird die Zieleingabestruktur ausgewMhlt 
und die Auflistung der Datenstrukturen der nachsten Ebene 
(204), die das Ziel darstellen, angezeigt (Schritt 2 in Fig. 2). 
Der Einfachheit halber gehen wir davon aus, dafi die letzte- 
len Datenstrukturen bereits atomisch sind (sich selbst also 
nicht in weitere Subelemente abbauen lassen), so daB keine 
weitere Verfeinerung notwendig ist: Deshalb wird der 
zweite Kasten in Fig. 2 als Atliibutmenu bezeichnet Anson- 
sten geht die Verfeinerung durch Ofifiien zusatzlicher Listen- 
kSsten weitei; das heiBt, die Stnikturelemente, die selbst 
eine Struktur bilden, kdnnten Stniktur mit weitraen 
Stnikturelementen darstellen, usw. Durch Auswahl dues 
MenQpunkts aus dem Attributmenfi wird der ausgewShlte 
Ibil aus der unstrukturierten Eingabe als Wert ftir dieses At- 
tribut zugeordnet, was den Zuweisungssdiritt des aktuellen 
Verfahrens vervollstMndigt 

Natflrlich ware es auch mdglich, die potentiellCT Daten- 
strukturen und die Ibilsubstrukturen in einem einzigen Dia- 
log darzustellen. Dies wirkt sich lediglich auf die \%rwend- 
barkeit des beschriebenen Verfahrens aus. Die Ritschd- 
dung, ob man eine Abstufung verwendet, hSngt von der 
KomplexitSt der beteiligten Datenstrukturen ab. 

Auf diese Weise werdra Datenstrukturen, die den Einga- 
beformularen der Zielanwendungen entsprechen, gefuUt 
(das hdBt, als Instanz behandelt). Die Histanzen dieser 
strukturierten Daten kdnnten im Speicher aufbewahrt wer- 
dsxi (FlQchtiger Cache (205), Schritt 3 in Fig. 2), bis der 
Mensch angibt, daB alle erforderiichen Dalen er^t wurden. 

Als nachstes werden die Cache-Instanzen an die 2^elan- 
wendung weitergeleitet (Schritt 4 in Fig. 2), um die erfafiten 
und strukturierten Ausgabedaten dauerfaaft zu spdcbem 
(206). Durch diesen Speichoischritt wird das Vofahren ver- 
voUstSndigt 

Um die Verwendbarfceit der Datener^sung wdter zu 
verbessem, schlSgt die Besdueibung der vorliegenden Er- 
findung vor; die im Gesamtmmii (203) angezeigte liste in 
Untergrui^)«i zu unterteilen, indem der geeignete Anwen- 
dungskontext ausgewahlt wird. Unter einem Anwendungs- 
kontext karm man sich dne oder mehrere Anwradungen 
vorsteHen, die in der Lage sind, Daten zu verarbdten, die in 
dec unstrukturierten Eingabe enthalten sind. Wie in Fig. 3 
dargesteUt ist, kdnnte diese Auswahl dadurch unterstutzt 
werden, daB man in die MenOkiste der Software, die zum 
Durchsuchen der unstrukturierten Eingabe (301) dient, dn 
Anwendungskontextmenii hinzuftigt 

Bd der Auswahl des Anwendungskontextmenils wird 
eine Liste (302) der verfugbaren GesamtmenOs angezdgt 
Wenn dn Meniipunkt aus dieser Liste ausgewahlt wird, wird 
nur die entqxrechende Unteigruppe an Datenstrukturen im 
oben beschriebenen GesamtmenQ (203) angezdgt Dadurch 
wird der Schritt zur Bestimmung des Anwendungskontextes 
in t)bereinstimmung mit der vodiegenden Erfindung ver- 
vollst^digt Ein NebenefTekt der Auswahl eines MenQ- 
punkts aus dem Anwendungskontextmenu ist, daB die 
Browser-Software weiB, dafi nicht die Standard-Kontextme- 
nOs (also das Ibxtmenti, wenn es sidi beim ausgewMhlten 
MenQpunkt um einen Texttdl in einem Ibxtverarbdtungs- 
ptpgramm handelt) fiir ausgewahlte Ibile der unstrukturi^- 
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ten Eingabe Pop-Up-MenQs sein mOssen. Stattdessen wer- 
den die KontextmenQs, die zur ausgewaMten Anwendung 
geb&ien, angezeigt. 

Wie beim Voischlagsschritt ist auch bier anzumerkea, daB 
hinsicbdich dieser Komponente des Verfahrens veischie- s 
dene andere MdglidikeiteD ejusdmn (die sich ebenfaUs 
kombinierai lassen): 

Das AnwendungskontexlmenQ konnte alle AnwenduQgs- 
kontextB auffuhieD, die fOr das Untemebmen rdevant sind. 

Wenn man das Klassifizieningseigebms eines Parsens 10 
nutzt, der die Hngabedaten analysieit bat, kdnnte das An- 
wendungskoatextmenii nur diejenigen AnweDdungskon- 
texte auffObien, die ftir den Dokumenttyp relevant sind, zu 
dem die Eingabedaten geb5ien. 

Das Ihinzip der vorliegenden Erfindung liefie sicb so um- 15 
setzen, daB die Ersteller von Anwendungen Kon^xmenten 
(beispielswdse Java Beans) bereitstellen, die Anwendungs- 
kontexte oda Kontextmeniis kieieien. Auf der Gxundlage 
dieser Komponoiteo kdnnte die Browsoi-Software dann die 
MentUdsten und Kontextmraiis zusammensetzen. Worn die 20 
resultieiende BiowseF-Softwaie aucb seiche Kon^)onenten 
(beispielsweise uber Referenziemng) einscbliefit, dann iin- 
terstiitzt die Software sofort die Datenerfassung. 

Zusammenfassend enthSlt das bescbriebene ^^rfahren die 
folgenden Scbritte, die in 4 daigestellt sind: 25 

1. In einem optionalen Anwendungskontexdsestim- 
mungsscfaiitt (401) wild eine oder mebiere Anwendun* 
gen, die in der Lage waren, die unstrukturierten Daten 

zu verarbeiten, ausgewShlt Die Anzahl der mdglicben 30 
und bescbriebenen Anwendungskontexte kann duich 
dne modnne Dokumentklassifiziening vocdefiniert 
sdn Oder dynamisch bestimmt weiden. Im \^lauf des 
bescbriebenen Verfahrens wild dieser ausgewSblte An- 
wendungskontext dazu verwendet, die Anzahl der 35 
mdglicben Datenstnikturen in den folgenden Schritten 
zu begienzen. 

2. Im nacbsto) Schritt, dem Datoiauswahlschritt 
(402), konnen Datensegmente innerfaalb der Kngabe 
als Elemente einer Datenstruktur ausgewablt weiden. 40 
Als moglicbe Erweiterung kann ein Parser, der eine 
Ma:kmals«Uiaktion besitzt, verwendet werdeo, um die 
Eingabe mit bereits ausgewShken Datrasegmenten 
vofzuv^rarbeiten. 

3. ImV>rschlagsschritt (403) werdenmdgliche Daten- 45 
stniktuTCT voigeschlagen, die das aiisgewShlte Data>- 
segment enthalten kdnnten. Die Gruppe der voige- 

schlagraen Datenstnikturen konnte durcb den Anwen- 
dungskontext oder das Klassifizieningseigcbnis eines 
Parsers, der Daten-Mining auf der Basis des voUst^di- SO 
gen unstrukturierten Eingabedokuments oder des aus- 
gewahlten Datensegments einsetzt, eingegrenzt wer- 
den. 

4. Im Zuweisungsschritt (404) wird ein Zieldaten- 
Stnikturdement zugewiesen uikI zur Speicberung des 55 
genannten ausgewShlten Datensegments verwendet 
Das Vbrfahren extrabiot das ausgewahlte Datens^- 
ment aus dsn genannten Hngabedaten und q)eichert es 
im 2^eldaten-Struktuielement 

5. Zum Scblufi werdoi die erfaSten und strukturierten 60 
Ausgabedaten dauerbaft abgespeicbert; das heifit, das 
Verfabren wird dutch den Speicherscfaritt abgescblos- 
sen (405). 

65 

4.3\brteil 

Immer mehr Koommnikation wird dutch GerSte und 
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Software unterstiitzt, die unstrukturierte Daten (wie bei- 
spielsweise Ibxt) erz^gen. Zum Beispiel verbieitet sich e- 
mail zusdiends: Mcht nur Versoigungsketten sondero auch 
Kundenwertscbdpfimgsketten und Kundenbetreuungssy- 
steme weiden davon beruhrt Andeierseits mvarten beste- 
hmde Anwoidungen, die die jeweiligen GeschSftsprozesse 
bereits unterstfltzen, stnikturierte Daten. Es fehlt also eine 
tlbereinsdmmung zwischen der Informationsquelle, die un- 
strukturierte Daten eizeugt, und dem Informationsziel (Da- 
tenverarbeitimgsanwendungen), das stnikturierte Daten be- 
natigt 

Aus der Sicbt eines Benutzers besteht der Voiteil der vor- 
liegenden Erfindung darin, das Extrahieren von Daten aus 
unstrukturierte Eingabe fOr solche Anwendungen, die 
stnikturieite Daten erwarten, zu veieinfachen: Die Zeit fur 
die Datenextraktion wird verringert, und Febler dutch er- 
neute Eingabe weiden vermieden. Dies setzt sich dirdct in 
Einsparungen fUr den Arbeitgeber des Benutzers um. 

Aus der Sicfat des IVogrammienKs einer Software fOr das 
Durchsuchen unstrukturierter Daten bietet das Rinzip der 
vorliegenden Erfindung eine einfache M5glichkdt, ein 
fahien zur Datenerfassung umzusetzen. 

PatentanqnUche 

1. Hn Verfabren, das von einem Computeisystem aus- 
gefObrt wild, zur Umwandlung unstrukturierter Hnga- 
bedaten in stnikturierte Ausgabedaten, 

wobei das genannte Verfabren dnen Datenauswabl- 
sdmtt umfaBt, in dem mindestens ein Datensegment 
ausgewShlt ist, wobei das genannte Datensegment d- 
nen Teil der genaimten Eingabedaten enthalt und das 
genannte Datens^ment in ein Datenstrukturelement 
umgewandelt werden kann; und 
wobd das genannte Verfabren einen \^>rschlagsscbritt 
umfafit, in dem mindestens ein Datenstrukturelement 
voigescfalagen wird; und 

wobd das genannte \^rfiahien einen Zuwdsungsschritt 
umfaBt, in dem ein Datenstnikturelement als Zieldaten- 
Strukturelment zur Speicberung des genannten ausge- 
wabltoi Datensegments zugewiesen wird, und wobd 
das genannte ausgewahlte Datensegment aus dsn ge- 
nannten Hngabedaten extrabiert und im genannten 
Zieldaten-Strukturelement gespdchert wild. 

2. \^ifahreo zur Umwandliing unstrukturierter Einga- 
bedatm In stnikturierte Ausgabedaten gemSB An- 
^mich 1, wobd das genannte Verfabren durch einen 
Speicherschritt abgescblossen wild, in dem das ge- 
nannte Zieldaten-Strukturelemet dauerbaft abgespd- 
chertwird. 

3. Verfabren zur Umwandlung unstrukturierter Einga- 
bedaten in stnikturierte Ausgabedaten gemaB An- 
spnich 1 oder 2, wobd im genannten Mzrschlagsschritt 
entweder Datenstnikturdemente imd/odn 
Datenstnikturen voigeschlagai woden, wobd die ge- 
nannten Datenstnikturen ein oder mehrcre Datenstruk- 
tuielementB und/oder eine oder mdirere weiteie Daten- 
stnikturen umfassen. 

4. Verfahren zur Umwandlung unstrukturierter Einga- 
bedaten in stnikturierte Ausgabedaten gemSfi An- 
spnich 1, 2 oder 3, 

wobd dem genannten Datenauswahlschritt ein Anwen- 
dungskontextbestimmungsschritt zur Bestimmung 
mindestens dner Selanwendung zur potentieUen Ver- 
arbeitung der genannten strukturierten Ausgabedaten 
vorausgeht, 

wobd im goiannten Anwendungskontextbestim- 
mungsschritt die genannten Eingabedaten automatisch 
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vom genannten Computeisystem Idassifizi^ iind miii- 
desteos einerZielanweDdiiiig zugewiesra weiden; iiod/ 
Oder 

wobei im genannten Anwendungskontextbestim- 
mungsschritt ein Benutzer aus einer Gnippe von An- 
wendungen mindesteis eine Zielaowendung auswShlt; 
und wobei im genannten ^tschlagsschritt nur solche 
Datenstnikturelcinente votgeschlagen werden, die mit 



5. Veif ahioi zur Umwaiidlung unstnikturiertjer Einga- 10 
bedaten in stiukturieite Ausgabedaten gemSB An- 
spnich 1,2, 3 Oder 4, 

wobei im genannten Datenaus wahlschritt ein Parser die 
genannten Hngabedaten analysiert, dieser Pars^ po- 
tentielle Datensegmente klassifiziert und Datenseg- IS 
mente, die mdglidierweise fiir eine Zielanwoidung re- 
levant sind, im voraus auswablt 

6. Verfahien zur Umwandlung unstruktuiieiter Ln- 
portdaten in stmkturierte Ausgabedaten gemaB An- 
spnichl,2,3,4oder5, 20 
wobei das genannte Verfehien in einer Zielanwendung 
integrieit ist; uod/oder 

wobei das genannte Verfehren in einem Mailing-Sy- 
stem integriert ist; und/oder 

wobei das genannte X^rfahren in einem Tsxtveraibei- 25 
tungsprpgramm integriert ist 

7. Ein System mit einem Mittel, das darauf ausgelegt 
ist, die Schritte entspiecbend dem I^inzip der vorlie- 
genden Erfindung gemaB einem der Anspriicbe 1 bis 6 
auszufUhien. 30 

8. Hn Datenvmrbeitmigsprograniin, das in einem 
Datenverarbeitungssystem ausgef&hrt weiden kann 
und Softwaie-Codeteile zur Ausftlhxung eines >ferfab- 
lens gemSB einem der AnsprOche 1 bis 6 enthSlt 

9. Ein Gomputeiprogramm, das auf einem Speicher- 35 
medium gespeicheit ist, das von einem Compute gel&- 
sen werden kann, wobei dieses Programm mit einem 
computeriesbaren Fkogrammittel kombiniert ist, wd- 
cbes einen Computer veranlaBt, ein Vearfiahren gemaB 
einem der Anspriicbe 1 bis 6 auszuftibren. 40 
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To 

Joe Smith, FIlD. 
432Nbi;^KreAv. 
12345 Mood City. XYZ 

Dear cleric. 

I would like to apply for a credit fiar 
Cmeoity, I do not have a job, so I cannot pay more 
than 1% interest rate. Also. I expect to bedivoroed 
bqginmi^ of next nuDth, 8o» maybe I camsot pay 
any interest rate at alL 

Best leg^xds 
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Person 
Angest. 
Konto 1 
Kredit i 
Bewertung 
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Konto# 
Betrag 
Zinssatz 
Ablaufdatum 




Konto# 


Betrag 


Zinssatz 


Ablaufdat. 
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Aimndungskontexfbesfiminu^ ^ 

• begrenztauf Dokumonl- 
klassiftzierung (opfionai) 

• ziff BegrenzungderAnzaM 
polentSetter DatenstnAturen 
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DatenauswaH 

• VoiauswaMdurch 

Datensortieiverf^hren (opfionai) 
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VorscMag mogRchw Datenstrukturen 

• begrerutjenach 
Anwendungskontext (option^ 

• begreadjenachKla8sifizierung(duich 
Datensortteivef(eton)(optional) 



Zuweisung ausgefMfSMter D 
Zi8lstnjMijr^}ale^ 


fatenzu ' ^ 
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